Mcginn's Blog

论文笔记 Semantic Compositional Networks for Visual Captioning

字数统计: 416阅读时长: 1 min
2018/08/18 Share

简介

​ 该论文提出了语义组合网络(Semantic Compositional Network, SCN),其有效利用语义概念(标签)来达到效果比较好的图文生成。

Semantic compositional networks

  • 模型基础

    使用CNN提取图像特征,RNN作文字生成。

    文字生成的概率公式:

    $ \bold X = (x_1, \dots , x_T)$ 表示文字序列,$v$ 为提取的图像特征。

    LSTM的转换函数:

    ​ 图像特征仅在开始输入一次

  • 语义概念检测

    作者将语义标签检测作为多标签分类问题。

    首先先从训练集的文字说明中提取常见的 $K \approx 1000$个单词作为分类标签 $y_i = [y_{i1},\dots,y_{iK}] \in \{0, 1\}^K$。

    标签$s_i$使用MLP来预测(Ps:这里可能是在CNN的基础上加入MLP),

    $s_i$表示每个标签的概率,也可以理解为权重。

    优化目标函数:

  • SCN-RNN

    这一步就是将语义标签嵌入到RNN中。

    嵌入相关公式:

  • 视频文字生成(video caption)

    视频的图像特征包括两部分:均值池化2D CNN提取的图像特征和3D CNN提取的特征,两个特征连接起来作为视频的图像特征。

结果

  • 在数据集COCO和Youtube2Text的各个评估指标全面提升。

CATALOG
  1. 1. 简介
  2. 2. Semantic compositional networks
  3. 3. 结果